AI

머신러닝_01_문제 정의와 데이터 표현

작성자 : Heehyeon Yoo|2026-03-13
# 머신러닝# 문제정의# 데이터표현# 지도학습# 비지도학습

1. 규칙 대신 관계를 학습하는 방식

머신러닝은 흔히 "데이터를 많이 넣으면 똑똑해지는 기술"처럼 설명되지만, 이 표현은 너무 느슨하다. 핵심은 사람이 규칙을 일일이 적는 대신 데이터와 경험을 통해 입력과 출력 사이의 관계를 근사한다는 데 있다.

Tom Mitchell은 머신러닝을 어떤 작업 T에 대해 성능 지표 P가 경험 E를 통해 향상되는 시스템의 문제로 정리했다. 이 정의가 중요한 이유는 머신러닝을 모델 이름으로 설명하지 않기 때문이다. 중요한 것은 "어떤 알고리즘을 썼는가"보다 "무슨 경험을 통해 무엇이 개선되는가"에 있다.

이 관점에서 보면 머신러닝은 전통적인 프로그래밍을 대체하는 만능 도구가 아니다. 사람이 규칙을 직접 적기 어렵고, 데이터를 통해 패턴을 학습시키는 편이 더 나은 문제에서 선택되는 방법론에 가깝다. 이미지 인식, 음성 인식, 추천, 이상 탐지 같은 문제가 여기에 속한다.

2. 문제 정의와 문제 프레이밍

입문 단계에서 가장 자주 빠지는 부분이 바로 여기다. 머신러닝 프로젝트는 "어떤 모델을 쓸까"가 아니라 "이 문제를 정말 학습 문제로 바꿀 수 있는가"에서 시작한다.

입문 단계에서 먼저 물어야 하는 것도 같은 질문이다. 목표를 머신러닝 바깥의 언어로 먼저 적을 수 있는가, 그 목표가 정말 예측 문제인지, 아니면 단순한 규칙 기반 로직으로도 충분한지가 먼저 정리되어야 한다.

머신러닝 문제를 다룬다는 말은 사실 두 번의 번역을 포함한다. 먼저 현실의 문제를 제품 목표로 바꾸고, 그다음 그 목표를 다시 모델의 출력 형태로 바꿔야 한다. 스팸 메일을 걸러낸다는 목표는 "이 메일이 스팸일 확률을 예측하라"는 분류 문제로 바뀌고, 내일 강수량을 알고 싶다는 목표는 수치 예측 문제로 바뀐다.

이 과정이 빠지면 뒤에서 아무리 복잡한 모델을 써도 방향이 흔들린다. 머신러닝은 모델 선택 이전에 문제를 어떤 출력 공간으로 사상할 것인가를 정하는 작업이다.

3. 데이터 표현과 학습 공간

머신러닝 문서에서 반복해서 등장하는 Xy는 단순한 표기법이 아니다. 이 표기 안에는 데이터를 바라보는 방식이 압축되어 있다.

X는 보통 (n_samples, n_features) 형태의 행렬이다. 각 행은 하나의 샘플이고 각 열은 하나의 특성이다. y는 각 샘플에 대응하는 목표값이다. 분류에서는 클래스 레이블이 되고, 회귀에서는 연속적인 수치가 된다. 반대로 비지도 학습에서는 애초에 y가 없다. 모델은 정답 없이 데이터 내부의 구조를 먼저 찾는다.

여기서 중요한 건 데이터가 현실 그 자체가 아니라는 점이다. 현실의 사건이나 객체는 그대로 모델에 들어가지 않는다. 숫자 벡터, 범주 값, 토큰 시퀀스, 픽셀 배열 같은 표현으로 한 번 바뀐 뒤에야 모델에 들어간다. 머신러닝은 현실을 직접 학습하는 것이 아니라, 현실을 표현한 데이터 구조 위에서 패턴을 학습한다.

따라서 성능의 상당 부분은 모델보다 표현에 좌우된다. 어떤 특성을 남기고 어떤 특성을 버릴지, 레이블은 무엇으로 둘지, 샘플의 단위는 어디서 끊을지가 애초에 학습 가능한 문제를 만든다.

4. 학습, 평가, 추론

입문 단계에서는 "학습이 끝나면 바로 예측한다" 정도로 이해하기 쉽지만, 실제로는 세 단계의 책임이 다르다.

학습은 모델이 데이터에서 관계를 추정하는 단계다. 이때 모델은 레이블이 있는 예시를 반복해서 보며 예측과 실제 값의 차이를 줄이는 방향으로 파라미터를 조정한다. 평가는 이렇게 학습된 모델이 처음 보지 못한 데이터에도 잘 작동하는지 확인하는 단계다. 추론은 학습이 끝난 모델을 실제 입력에 적용해 새 출력을 내는 단계다.

이 셋을 구분해야 하는 이유는 머신러닝의 목표가 암기가 아니라 일반화이기 때문이다. 학습 데이터에서만 잘 맞는 모델은 시스템 관점에서 실패한 모델이다. 훈련과 평가가 섞이면 모델 성능이 아니라 데이터 누수 정도만 측정하게 된다.

중요한 것은 관측된 데이터를 설명하는 일이 아니라, 아직 보지 못한 데이터를 어느 정도 신뢰할 수 있게 다루는 일이다.

5. 학습 유형의 분기

머신러닝의 하위 분야는 많지만, 초반에는 무엇이 정답으로 주어지는지부터 구분하는 편이 빠르다.

  • 지도학습은 입력과 정답이 함께 주어진 데이터로 예측 함수를 학습한다.
  • 비지도학습은 정답 없이 데이터의 구조, 군집, 잠재 패턴을 찾는다.
  • 강화학습은 환경과 상호작용하면서 보상을 최대화하는 정책을 학습한다.

생성형 AI는 여기와는 조금 다른 축에 놓인다. 정답 유무로만 나누는 분류라기보다, 어떤 출력을 만들어 내는가와 어떤 모델 계열을 쓰는가에 더 가깝다. 입문 단계에서는 우선 지도학습과 비지도학습의 차이를 분명히 이해하는 편이 중요하다. 뒤에서 다루게 될 특징 추출, 클러스터링, 시계열 패턴 분석도 이 구분 위에서 읽혀야 덜 엉킨다.

결국 첫걸음은 모델 이름을 외우는 데 있지 않다. 어떤 문제를 학습 문제로 정식화할 수 있는지, 그 문제를 어떤 데이터 표현으로 바꿀지, 그 표현 위에서 무엇을 예측하거나 발견하려는지를 구분하는 데 있다.